与自然语言处理的XAI旨在产生可读的解释,作为AI决策的证据,以解决解释性和透明度。但是,从HCI的角度来看,当前的方法仅着眼于提供单一的解释,该解释无法解决人类思想和语言经验的多样性。因此,本文通过提出一个生成XAI框架,交互来解决此差距(解释并预测与上下文条件变分自动编码器查询)。我们的新框架分为两个步骤提供了解释:(一步)解释和标签预测; (第二步)各种证据生成。我们在基准数据集E-SNLI上对变压器体系结构进行密集实验。我们的方法在第一步中,针对解释生成(BLEU的增长率高达4.7%)的最先进基线模型的竞争性或更好的表现;它还可以在第二步中产生多种不同的解释。
translated by 谷歌翻译
巨大的开放在线课程(MooCs)已成为电子学习的热门选择,因为他们的灵活性很大。但是,由于大量的学习者及其多样化的背景,它征税,以提供实时支持。学习者可能会在各自的MooC论坛上发布他们的混乱和斗争,但随着MooC教师的大量员额和高工作量,教师不太可能识别所有需要干预的学习者。由于数据的不平衡和任务的复杂性,已被研究是一种自然语言处理(NLP)问题的研究,并且已知是具有挑战性的。在本文中,我们探讨了贝叶斯的第一次对学习者的文本帖子进行了两种方法:蒙特卡罗辍学和变分推论,作为评估学习者帖子的教师干预需求的新解决方案。我们基于在类似情况下基于概率模型的基于概率模型的概率模型进行比较模型,对于应用预测的不同情况。结果表明,贝叶斯深度学习提供了传统神经网络未提供的批判性不确定性措施。这增加了对AI的说明,信任和稳健性,这在基于教育的应用中至关重要。另外,与非概率神经网络相比,它可以实现类似或更好的性能,以及较低的方差。
translated by 谷歌翻译
In this paper, we propose and showcase, for the first time, monocular multi-view layout estimation for warehouse racks and shelves. Unlike typical layout estimation methods, MVRackLay estimates multi-layered layouts, wherein each layer corresponds to the layout of a shelf within a rack. Given a sequence of images of a warehouse scene, a dual-headed Convolutional-LSTM architecture outputs segmented racks, the front and the top view layout of each shelf within a rack. With minimal effort, such an output is transformed into a 3D rendering of all racks, shelves and objects on the shelves, giving an accurate 3D depiction of the entire warehouse scene in terms of racks, shelves and the number of objects on each shelf. MVRackLay generalizes to a diverse set of warehouse scenes with varying number of objects on each shelf, number of shelves and in the presence of other such racks in the background. Further, MVRackLay shows superior performance vis-a-vis its single view counterpart, RackLay, in layout accuracy, quantized in terms of the mean IoU and mAP metrics. We also showcase a multi-view stitching of the 3D layouts resulting in a representation of the warehouse scene with respect to a global reference frame akin to a rendering of the scene from a SLAM pipeline. To the best of our knowledge, this is the first such work to portray a 3D rendering of a warehouse scene in terms of its semantic components - Racks, Shelves and Objects - all from a single monocular camera.
translated by 谷歌翻译
我们提出了一个新型的基于流动合成的视觉致毒框架,从而为微型航空车辆(MAV)避免了远距离的障碍物(MAV)在高大的摩天大楼中飞行。最近的基于深度学习的框架使用光流进行高精度的视觉伺服。在本文中,我们探讨了一个问题:我们可以为这些高精度视觉服务方法设计替代流,从而导致避免障碍?我们重新审视显着性的概念,以识别其他竞争摩天大楼和建筑物之间的攻击线中的高层建筑物作为碰撞障碍。合成的流程用于取代显着对象分割掩码。该流程得以计算,以至于视觉伺服控制器在障碍物周围安全地操纵MAV。在这种方法中,我们使用基于多步跨凝结法(CEM)的伺服控制来实现流量收敛,从而导致避免障碍物。我们使用这种新颖的管道来成功,持久地进行高层建筑,并在模拟和现实的现实世界中实现目标。我们进行了广泛的实验,并将我们的方法与光流和基于短距离的障碍物回避方法进行比较,以证明所提出的框架的优点。可以在https://sites.google.com/view/munocular-obstacle/home上找到其他可视化。
translated by 谷歌翻译
弱监督(WS)框架是一种绕过手工标记大型数据集的流行方式,用于培训数据饥饿的模型。这些方法综合了多种噪声,但更便宜地获得了对下游训练的一套高质量伪标签的标签。然而,合成技术特异于特定类型的标签,例如二元标记或序列,并且每种新标签类型需要手动设计新的合成算法。相反,我们提出了一种普遍的技术,它可以通过任何标签类型的弱监管,同时仍提供所需的性质,包括实际灵活性,计算效率和理论保证。我们将这种技术应用于以前不被WS框架解决的重要问题,包括学习在双曲线歧管中的排名,回归和学习。从理论上讲,我们的合成方法产生一致的估计,用于学习挑战但是指数家庭模型的重要概括。通过实验,我们验证了我们的框架,并在不同的环境中显示了基础的基准,包括真实的学习 - 排名和回归问题以及学习在双曲线歧管上。
translated by 谷歌翻译
文本VQA的开放式问题回答任务通常需要读取和推理图像中很少见或完全看不见的场景文本内容。我们通过提出广义使用外部知识来增强我们对场景文本的理解来解决问题的零射击性质。我们设计一个框架,使用标准的多模式变压器来提取,验证和理性,以了解视觉语言理解任务。通过经验证据和定性结果,我们证明了外部知识如何突出实例的线索,从而有助于应对培训数据偏见,提高答案实体类型的正确性并检测名为“实体”的多字。在类似上游OCR系统和培训数据的限制下,我们生成的结果与三个公开数据集的最新结果相当。
translated by 谷歌翻译